MEAN TEACHER CONVOLUTION SYSTEM FOR DCASE 2018 TASK 4
https://dcase.community/documents/challenge2018/technical_reports/DCASE2018_Lu_19.pdf
CRNNとMean-Teacherの説明がある
? 結局どういうアーキテクチャで,それぞれの役割は何?
https://gyazo.com/f9c14a0d2b63a994163a5d59dff171e2
CNNの活性化関数を工夫している
GLUを参考にしたContext Gatingを採用
GLUはGated Linear Unitの略
より重要な音声特徴の学習のため採用
? 具体的にどういう効果がある?
グローバル平均プーリングの採用
softmaxとsigmoidを融合する?
Context Gatingを参考に,Feed Forward Network,FNN?を融合する
SURREY-CVSSP SYSTEMが元らしい
Attention and Localization based on a Deep Convolutional Recurrent Model for Weakly Supervised Audio Tagging
Mean-Teacherの採用
訓練過程の重みを平均化し,最終的な重みだけより精度を向上させる
TeacherモデルはStundentモデルの指数移動平均(EMA)を用いる
分類と一貫性の損失を最小化する
一貫性はクリップとフレームの二単位で構成